TeorĂ­a de Probabilidades

En general, trabajamos con variables aleatorias

\[ P\left(X = x_i \right) = p_i \]

La variable aleatoria \(X\) toma el valor \(x_i\) con probabilidad \(p_i\). Para describir cĂ³mo cambian estas probabilidades usamos distribuciones de probabilidad. Estas pueden ser continuas o discreetas.

Las distribuciones discretas se definen con la funciĂ³n de masa de probabilidad \(f(x)\) que define los valores de probabilidad \(p_i\) para cada posible valor \(x_i\). Por definicĂ³n, estas probabilidades son no-negativas y no mayores de \(1\). La suma de las probablidades de los eventos posibles tiene que ser igual a \(1\). La funciĂ³n acumulada de probabilidad \(F(x)\) nos da la probabilidad de que la variable aleatoria sea menor o igual a un valor particular \(F(x_i) = P(X \leq x_i)\). Una diferencia importante entre las distribuciones discretas y contiunas es que para variables continuas tenemos infinitos valores posibles. Entonces ya no hablamos de la probabilidad de obtener un valor en particular sino de la densidad de probabilidad alrededor de un valor determinado. En general, no prestamos demasiada atenciĂ³n a los valores particulares de densidad de probabilidad sino a comparaciones relativas. La funciĂ³n de densidad de probabilidad estĂ¡ definida como \(f(x) = d F(x) / d x\). Las densidades de probabilidad de variables continuas tienen que ser no-negativas, pero pueden ser mayores que \(1\), pero deben integrar a \(1\) sobre los valores posibles de la variable \(X\).

Cuando tenemos mĂ¡s de una variable aleatoria, podemos considerar probabiliddes conjuntas \(P(x,y)\) que nos dan la probabilidad de obtener \(x\) e \(y\) simultĂ¡neamente. En el caso de que las variables sean independientes esa probabilidad es igual al producto \(P(x) P(y)\).

Podemos definir la probabilidad marginal como

\[ P(x) = \int P(x,y) dy \]

Y podemos definir la probabilidad conjunta en funciĂ³n de la probabilidad condicional

\[ P(x,y) = P(x|y)P(y) \] \[ P(x,y) = P(y|x)P(x) \]

A partir de estas condicionales, podemos derivar la regla de Bayes

\[ P(x,y) = P(x|y)P(y) = P(y|x)P(x) \]

\[ P(x|y) = \frac{P(y|x)P(x)}{P(y)} \]

Los anĂ¡ilisis Bayesianos consideran a los parĂ¡metros (\(\theta\)) de un modelo como variables aleatorias y buscan caracterizar la distribuciĂ³n de pobabilidad de parĂ¡metros condicional en los datos observados:

\[ P(\theta | y) = \frac{P(y| \theta)P(\theta)}{P(y)} \]

Para calcular la probabilidad marginal de los datos \(y\) hacemos \(\int P(y| \theta) d \theta\)

En general, no podemos resolver estas integrales para los modelos que queremos ajustar (e.g. para una regresiĂ³n simple con una ordenada al origen, una pendiente y un parĂ¡metro de varianza, tenemos que resolver una integral triple). Lo que hacemos es usar mĂ©todos de Markov Chain Monte Carlo para generar muestras de la distribuciĂ³n posterior.

Example: Hamiltonian Monte Carlo